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基于 聚 类 和 流量 传播 图 的 P2P 流量 识别 方法 
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摘 要 : 为 有 效 监管 网 络 ， 快 速 精确 识别 P2P 流量 ， 通 过 分 析 P2P 网 络 流量 中 节点 与 节点 、 节 点 与 链 路 之 间 的 交互 和 
行为 特征 ， 将 聚 类 方法 与 流量 传播 图 方法 相 结合 ， 提 出 了 一 种 基于 网 络 行为 特征 的 P2P 流量 识别 方法 。 该 方法 首先 通 
过 采集 网 络 流 的 包 级 和 流 级 统计 特征 对 不 同 种 类 的 网 络 应 用 的 流量 进行 聚 类 ， 然 后 利用 流量 传播 图 对 P2P 流量 进行 识 
别 。 实 验 结 果 表 明 ， 提 出 的 方法 在 骨干 网 络 数 据 上 能 够 有 效 识 别 P2P 网 络 应 用 流量 ，Fl-measure 达到 95% 以 上 。 
关键 词 : P2P 流量 识别 ; 流量 行为 特征 ; 流量 传播 图 ; 基于 密度 带 嗓 声 的 空间 聚 类 算法 
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P2P traffic identification method based on clustering And Traffic Dispersion Graph 


Su Yangyang’, Sun Dongpu’, Li Dandan* +, Sun Guanglu*®, 
(a. School of Computer Science & Technology; b. Research Center of Information Security & Intelligent Technology, Harbin 
University of Science & Technology, Harbin 150080, China) 


Abstract: In order to effectively supervise the network, quickly and accurately identify the peer-to-peer flow, by analyzing the 
interaction and behavior characteristics between nodes and nodes, nodes and links in Peer-to-peer network traffic, a method of 
Peer-to-peer traffic recognition based on network behavior features is proposed by combining clustering method with flow 
propagation graph method. Firstly, the flow rate of different kinds of network is collected by collecting packet level and flow 
level statistic feature of network flow, and then the Peer-to-peer flow is identified by using traffic graph. The experimental 
results show that the proposed method can effectively identify Peer-to-peer network application traffic in backbone network 
data, and the fl-measure reaches over 95%. 
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0 引 自身 的 特点 进行 研究 与 分 析 ， 发 现 其 特有 的 静态 与 动态 特征 ， 将 
P2P 流量 与 网 络 中 其 他 流量 有 效 区 分 ， 以 帮助 网 络 管理 者 和 服 

对 等 网 络 (peer-to-peer,P2P) 是 一 种 无 须 经 过 中 间 实 体 的 网 。 务 商 提升 不 同 网 络 业务 的 服务 质量 。 针 对 P2P 流量 识别 方法 主 

络 模 型 。 近 年 来 ， 伴 随 着 计算 机 网 络 的 迅猛 发 展 ， 许 多 网 络 应 。 要 包括 基于 端口 的 识别 方法 、 基 于 载荷 特征 的 识别 方法 、 基 于 流 
用 采用 P2P 技术 原理 来 实现 其 服务 。 因 此 ，P2P 协议 已 经 广泛 。 ”统计 特征 和 机 器 学 习 的 识别 方法 以 及 基于 网 络 节 点 关系 和 主机 
应 用 于 即时 通信 、 视 频 分 享 、 文 件 共 享 、 在 线 直播 、 游 戏 等 领 ”行为 的 识别 方法 说。 这 些 方法 分 别 根据 不 同 的 角度 对 P2P 流量 
域 。 通 过 Cisco( 思 科 ) 公 司 的 年 度 流 量 统计 报告 表明 ， 虽 然 P2P 进行 了 分 析 与 识别 ， 各 有 优 缺 点 。 由 于 现 有 的 P2P 应 用 大 多 使 
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流量 占据 全 球 总 体 网 络 带宽 的 比率 有 下 降 趋 势 ， 但 仍 可 以 达到 ”用 动态 端口 和 加 密 方式 进行 传输 ， 使 得 基于 端口 和 载荷 特征 的 
带宽 总 量 的 40% 山 。 由 于 P2P 应 用 采用 多 网 络 连接 模式 ， 进 而 方法 无 法 进行 有 效 识别 84。 而 基于 流 统计 特征 和 机 器 学 习 的 识 


多 
可 以 保证 其 数据 传输 效率 ， 但 其 大 量 占用 网 络 带 宽 ， 易 引发 网 。 别 方法 虽然 不 是 单纯 的 依赖 于 端口 和 载荷 ， 但 是 由 于 流 统计 特 
络 拥塞 等 问题 。 因 此 ， 能 够 在 全 网 流量 中 精确 的 辨识 出 P2P 流 征 在 不 同 网 络 环境 下 的 取 值 范围 的 不 稳定 性 ， 会 使 训练 数据 与 
量 并 对 其 进行 有 效 地 监管 具有 非凡 的 意义 。 测试 数据 间 差异 较 大 ， 进 而 影响 有 监督 机 器 学 习 模 型 的 识别 效 
现在 已 有 的 P2P 流量 识别 方法 主要 依赖 对 P2P 网 络 和 流量 。 率 。 而 且 对 于 不 同 网 络 环境 中 新 出 现 的 协议 的 适应 性 较 差 (561。 
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对 于 基于 网 络 节点 关系 和 主机 行为 的 方法 虽然 是 可 以 识别 点 是 依照 主机 在 网 络 中 所 承担 的 作用 和 各 个 主机 之 间 的 连接 方 
新 的 协议 ， 但 是 受 限 于 网 络 拓扑 环境 的 变化 ， 难 以 应 用 到 高 速 。” 式 以 及 某 些 网 络 中 群体 行为 等 方面 来 考虑 。Karagiannis 等 人 (14 
骨干 网 中 。lliofotou 等 人 中 提出 了 流量 传播 图 (traffic dispersion ”率先 提出 使 用 P2P 网 络 中 对 等 体 间 连 接 的 模式 来 对 网 络 中 的 
graphs，TDG) 的 概念 ， 将 节点 之 间 的 通信 关系 转换 为 有 向 图 ， P2P 流量 进行 识别 024， 随 后 他 又 提出 了 基于 主机 行为 模式 的 网 
挖掘 深层 次 的 网 络 交互 行为 ， 量 化 有 向 图 中 的 入 度 、 出 度 、 网 络 流量 分 类 方法 (BLINC) 。BLINSC 方法 将 主机 的 行为 模式 分 
络 直径 、 最 大 连接 组 件 等 特征 ， 并 利用 这 些 特 征 来 识别 有 向 图 为 社会 层 、 功 能 层 、 应 用 层 ， 并 通过 提取 这 些 行 为 模式 来 识别 
中 通信 和 链 路 的 应 用 类 型 。 可 是 网 络 中 的 通信 和 链 路 不 完全 都 是 能 网 络 流量 。 该 方法 虽然 提高 了 P2P 流量 的 匹配 度 ， 但 过 度 依赖 
够 相互 连通 的 ， 并 且 即 使 相互 连通 的 链 路 也 不 一 定 在 相同 时 间 于 端口 和 IP 间 的 关系 。 胡 斌 05 提 出 了 基于 混合 行为 特征 与 
内 都 是 属于 同一 种 网 络 应 用 。 因 此 ， 如 果 单 独 使 用 TDG 方法 Spark 大 数据 并 行 框 架 相 结合 的 流量 识别 方法 。Constantinou 等 
进行 不 同 流量 的 识别 ， 可 能 对 于 特征 属性 不 够 明显 的 小 流量 会 ”人 (9 根据 记录 中 每 个 节点 与 其 他 节点 建立 连接 的 实际 情况 来 
被 错误 识别 ， 甚 至 会 出 现 不 能 被 识别 的 问题 。 获取 P2P 网 络 的 连接 拓扑 图 ， 通 过 计算 它 的 网 络 直径 并 与 其 他 

因此 ， 本 文 提出 了 CTDG (clustering and traffic dispersion 类 型 网 络 的 拓扑 图 比较 发 现 ，P2P 网 络 拓扑 图 的 网 络 直径 会 更 
graph based method) ， 一 种 改进 的 聚 类 与 TDG 图 模型 相 结合 大 ， 从 而 致使 该 方法 对 需求 数据 的 处 理 及 度量 计算 体系 的 要 求 
的 P2P 流量 识别 方法 。CTDG 方法 首先 通过 无 监督 机 器 学 习 模 会 很 高 ， 难 以 达到 方便 易 用 的 结果 。 和 鲁 文 斌 等 人 (7 针对 P2P 网 
型 将 采集 到 的 网 络 流量 中 具有 相似 统计 特征 的 流 聚 类 为 若干 潜 络 的 分 布 式 特点 ,利用 单位 时 间 内 结 点 与 目的 子 网 间 的 连接 数 ， 
在 可 能 被 识别 的 类 ; 然后 利用 TDG 图 中 定义 的 度量 量化 网 络 以 及 连接 数 与 有 效 连接 数 的 比值 等 特性 ， 提 出 一 种 基于 节点 连 
流量 之 间 的 交互 行为 特征 ， 并 在 此 基础 上 进行 P2P 流量 识别 。 接 特性 的 P2P 节点 识别 算法 。 该 算法 处 理 时 间 虽 然 比 深度 报 文 
实验 结果 表明 ， 本 文 提出 的 方法 在 高 速 骨干 网 中 对 P2P 流量 识 。 检测 的 时 间 要 短 , 但 更 多 的 依赖 传输 层 的 特征 对 P2P 流量 进行 
别 效果 明显 ， 其 准确 率 能 够 达到 95% 以 上 。 识别 。 
针对 上 述 不 足 ， 本 文 提 出 了 一 种 改进 的 聚 类 与 TDG 图 模 

型 相 结 合 的 P2P 流量 识别 方法 (clustering and traffic dispersion 
在 现 有 的 P2P 的 流量 识别 方法 中 ， 基 于 流 统计 特征 和 机 器 graph based method，CTDG) 。 该 方法 有 以 下 优点 : a) 不 需要 
学 习 的 识别 方法 不 依赖 于 应 用 层 载荷 内 容 ， 而 是 基于 网 络 层 和 使 用 载荷 内 容 ， 能 够 识别 加 密 的 P2P 流量 ; b) 挖掘 深层 的 P2P 
传输 层 分 析 并 提取 流量 统计 特征 ， 结 合 带 标记 的 流量 数据 集 ， 网 络 交 互 行为 以 此 区 别 于 其 他 应 用 网 络 的 图 特征 ， 并 据 此 有 效 
在 有 监督 的 机 器 学 习 模型 中 进行 模型 训练 ， 最 终 识别 各 种 应 用 的 识别 P2P 应 用 ; c〉 对 于 网 络 中 新 出 现 的 应 用 ， 有 具有 很 好 的 
产生 的 流量 。 该 方法 通常 使 用 数据 包 级 (packet level) 特征 和 适用 性 ， 不 需要 训练 和 配置 复杂 的 模型 参数 。 
Bs 0 Pl a 0 I 2 ”网 络 流量 的 统计 特征 提取 
号 、 数 据 包 平均 到 达 时 间 、 以 太 网 数据 包 最 大 字 节 数 以 及 数 
据 包间 最 大 时 间 间 隔 等 ， 数据 流 级 特征 主要 包括 单个 数据 流 的 本 文采 用 网 络 中 常用 的 五 元 组 信息 
持续 时 间 、 长 度 以 及 与 其 他 流 的 间隔 时 间 等 。 徐 潜 平 等 人 四 通 { 源 IP、 目 的 IP、 源 端口 、 目 的 端口 、 传 输 层 协议 } 来 定义 网 络 
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过 构建 动态 混合 识别 策略 结合 SVM 和 投票 机 制 对 流量 进行 识 流 ， 使 用 一 定时 间 段 内 的 双向 流 作为 基本 单元 。 以 首 个 数据 包 
别 。Roughan 等 人 饵 提 出 了 基于 上 述 统计 特征 的 最 近邻 和 线性 ”的 发 送 端 作为 源 端 、 接 收 端 作为 目的 端 来 定义 TCP 流 的 方向 。 
判别 分 析 方 法 。Liu 等 人 00 提 出 了 26 种 P2P 流 的 统计 特征 , 并 ”以 相同 五 元 组 流量 中 第 一 个 数据 包 的 发 送 端 作为 源 端 、 接 收 端 
利用 支持 向 量 机 模型 区 分 四 种 P2P 流量 , 得 到 较 好 的 识别 效果 ; ”作为 目的 端 来 定义 UDP 流 的 方向 。 本文 分 别提 取 了 网 络 流 的 统 


但 对 流 数 较 少 的 应 用 类 别 ， 难 以 进行 有 效 的 识别 。 孙 知 信 等 人  ” 计 特 征 、 网 络 节 点 关系 和 主机 行为 特征 。 
0 提出 了 一 种 基于 流 特性 描述 的 P2P 游戏 流量 识别 方法 ,通过 不 同 应 用 层 协议 产生 的 网 络 流 在 数据 包 级 特征 和 数据 流 级 
对 标注 的 关键 性 流量 进行 数据 包 分 布 情况 的 分 析 ， 利 用 隶属 度 ”特征 上 会 有 比较 明显 的 差异 08。 本 文 提 取 了 数据 流 大 小 、 会 话 
函数 作为 评语 集 ， 最 后 利用 模糊 评判 的 准则 判定 流量 的 网 络 应 ” ”的 持续 时 间 、 流 中 每 个 数据 包 到 达 的 时 间 、 双 向 的 数据 包 数 目 、 
用 来 识别 P2P 流量 ;但 该 方法 着 重 依赖 于 载荷 数据 ， 对 识别 特 。 包 到 达 的 时 间 间 隔 ( 均 值 、 方 差 ) 以 及 通信 双方 在 idle 上 花费 
征 不 明显 和 加 密 的 P2P 网 络 应 用 的 适应 性 较 差 。 陈 阳 02 提 出 了 ”的 时 间 等 60 种 网 络 流 统计 特征 ， 并 使 用 信息 增益 算法 09] 抽 取 
基于 SVM 的 P2P 流量 早期 识别 研究 ， 利 用 数据 流 早期 数据 包 ”最 相关 的 特征 作为 聚 类 属性 ， 如 表 1 所 示 。 
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进行 特征 选择 和 识别 。 戴 舌 等 人 03 则 是 通过 使 用 主动 学 习 技术 表 1 流 统计 特征 

提取 出 少量 具有 高 质量 的 样本 ， 利 用 支持 向 量 机 模型 建 模 进 行 数据 包 级 的 特征 数据 流 级 的 特征 

P2P 流量 识别 。 但 如 何 将 其 应 用 于 实际 的 复杂 网 络 环境 ， 还 需 前 6 个 数据 包 的 字 节 长 度 流 大 小 

根据 具体 问题 具体 分 析 。 最 大 ， 最 小 数据 包 长 度 流 的 持续 时 间 
对 于 基于 网 络 节点 关系 和 主机 行为 的 网 络 流量 分 类 方法 重 数据 包 长 度 平 均值 ， 方 差 流 到 达 间 隔 时 间 
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3 ”流量 传播 图 (TDG) 


本 文 用 一 个 有 向 图 G(V,E) 定义 全 部 网 络 节点 之 间 的 TDG 
图 ， 节 点 集 V 责 元 网 络 中 的 节点 集 ， 图 中 的 边 edge(cy) es 五 代 
表 主 机 z 发 向 主机 v 的 网 络 流 。 

P2P 网 络 中 每 个 节点 能 够 决定 自身 通信 行为 , 具有 独立 性 ; 
但 是 节点 间 通 过 链 路 通信 进行 协作 以 获取 信息 和 计算 资源 ， 又 
具有 相互 依赖 性 。P2P 网 络 节点 的 TDG 图 (图 1) 具备 以 下 特 
点 ; 


a) 节点 平均 度 非常 高 。 这 是 因为 大 量 P2P 节点 之 间 通 过 
相互 连接 来 实现 数据 共享 和 内 容 查 询 。 


minPTS 样本 个 数 的 样本 作为 核心 对 象 成 员 。 

b) 在 核心 对 象 集合 中 ， 随 机 选择 一 个 对 象 ， 初 始 化 
核心 对 象 队 列 、 类 别 序号 、 当 前 簇 样 本 集合 以 及 未 访问 
集合 。 通 过 和 返 代 选取 当前 复核 心 对 象 队 列 中 的 每 一 个 对 
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当前 入 
的 样本 
象 ， 根 


据 邻 域 距 离 阔 值 eps 找 出 此 对 象 邻 域 子 样 本 集合 ， 用 于 


中 是 核心 对 象 的 样本 加 入 到 当前 簇 的 核心 对 象 队列 中 。 
c) 如 果 当 前 簇 的 核心 对 象 队 列 不 再 增加 ， 则 当前 簇 


一 个 新 类 别 Cx， 加 入 到 簇 划 分 集合 C={C1,C2,…..,Ck} 中 。 
核心 对 象 中 的 每 一 个 成 员 被 划分 到 簇 划分 集合 中 ， 聚 类 结 
状 的 徐 ， 而 且 对 噪声 


因为 DBSCAN 算法 能 够 识别 不 同 


SS 


b) 同时 拥有 (出 、 入 ) 度 的 节点 在 网 络 整体 中 所 占 的 比重 较 
大 。 这 是 因为 网 络 中 大 量 P2P 节点 同时 拥有 服务 器 和 客户 端 双 


np 


有 较 强 的 鲁 棒 性 中 ， 所 以 本 文 利用 
流 分 流 处 理 。 


来 进行 流量 识别 前 


C 


前 秘 的 样本 集合 和 未 访问 的 样本 集合 ， 同 时 将 邻 域 子 样本 


性 尽 大 


的 网 络 


重 身份 的 特性 所 决定 的 。 不 同 的 距离 计算 方法 会 对 DBSCAN 算法 的 聚 类 效果 产生 
c) 部 分 P2P 网 络 的 网 络 直 径 会 很 大 。 这 是 因为 BitTorrent 直接 的 有 影响， 传统 的 DBSCAN 算法 使 用 欧 氏 距离 作为 距离 的 
等 P2P 应 用 具有 分 散 式 网 络 拓扑 结构 。 度量 方式 ， 欧 氏 距离 的 度量 方式 更 多 地 关注 了 各 个 特征 值 间 的 
绝对 距离 ， 往 往 忽视 了 样本 间 的 相对 距离 。P2P 网 络 数据 流 间 
相对 距离 的 比较 ， 更 能 准确 地 刻画 样本 间 存 在 的 相对 联系 。 所 
以 本 文 提出 DBSCAN 算法 利用 卡 方 距离 度量 各 个 样本 间 的 相 
对 距离 。 卡 方 距 离 公 式 为 
dx?(x, y) = > —y,.) 
ri (+ y,) 
Ek Ee ne F 方 距离 是 根据 卡 方 统计 量 提出 的 ， 已 经 被 广泛 应 用 于 实 
名 外 际 距离 度量 问题 中 ， 并 且 取 得 了 相当 好 的 效果 21。 
图 1 P2P 网 络 的 TDG 图 5 CTDG 流量 识别 方法 
基于 TDG 图 定义 和 P2P 网 络 的 图 模型 特征 分 析 ， 本 文 构 CTDG 方法 结合 了 改进 后 的 聚 类 和 TDG 图 的 关系 挖掘 方 
建 的 行为 特征 包括 : ee F 来 实现 P2P 流量 的 
a) 同时 具有 入 度 和 出 度 的 节点 占 所 有 节点 数 的 百分比 , 用 效 识 别 。CTDG 方法 的 识别 流程 如 图 2 所 示 。 其 可 以 分 为 以 下 
IO 表示 。 四 个 步骤 。 
b) 所 有 的 节点 之 间 的 最 短 距离 中 路 径 最 长 的 两 个 节点 之 间 a) 过 滤 。 
的 距离 ， 即 网 络 直径 。 寻 为 基于 端口 和 载荷 的 方法 识别 某 些 非 加 密 的 传统 应 用 效 
c) 节点 平均 度 : 2|EIIV| 。 果 较 好 ,所 以 本 文 应 用 基于 端口 和 载荷 的 识别 方法 将 Web、DNS 
和 SMTP 等 可 以 识别 的 应 用 过 滤 掉 。 这 不 仅 减少 了 其 他 背景 流 
ee 量 的 干扰 ， 也 能 降低 后 续 步 又 的 时 间 和 空间 复杂 度 。 
基于 密度 带 噪声 的 空间 聚 类 方法 (density-based spatial b) 分 流 。 
clustering of application with noise，DBSCAN ) 是 一 种 典型 的 密 利用 表 1 列 出 的 统计 特征 ， 使 用 DBSCAN 作 聚 类 ， 将 统 
度 聚 类 算法 。 算 法 的 核心 思想 是 通过 密度 可 达 关 系 导 出 的 最 大 计 特 征 相 近 的 网 络 流 聚 成 艇 。 算 法 选取 欧 几 里 得 度量 计算 特征 
密度 相连 的 样本 集合 ， 作 为 最 终 要 得 到 的 一 个 类 别 。 其 通过 一 空间 中 的 相似 度 。 设 代表 网 络 流 数据 集 ，f; e 了 代表 其 中 的 
组 邻 域 来 描述 样本 集 的 紧密 程度 ， 使 用 参数 eps 和 minPTS | 每 一 个 网 络 流 ， 算 法 的 详细 步骤 如 下 : 
来 描述 邻 域 的 样本 分 布 紧密 程度 ， 参 数 eps 描述 了 某 一 样本 的 (a) 对 数据 集中 的 每 一 个 未 处 理 的 数据 流 fi e 了 ， 划 定 
邻 域 距离 阔 值 ， 参 数 minPTS 描述 了 某 一 样本 的 距离 为 eps 的 其 扫描 半径 eps) ， 检 测 eps 涵盖 范围 内 的 数据 流 。 若 其 个 数 
邻 域 中 样本 个 数 的 阔 值 。 算 法 基本 流程 如 下 ; 大 于 最 小 流 数 闵 值 (minPTS) ， 则 创建 新 徐 Y， 将 这 些 数 据 流 


a)DBSCAN 聚 类 算法 需要 获得 样本 中 全 部 的 核心 对 象 即 对 
每 一 个 样本 根据 距离 度量 方式 ， 获 得 满足 eps 邻 域 距 离 和 大 于 


加 入 立 徐 中 。 
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(b) 对 YY 簇 中 每 一 个 的 数据 流 y;， 检 测 草 


eps 涵盖 范围 


内 的 数据 流 。 若 其 个 数 大 于 等 于 minPTS， 则 将 其 中 没有 包含 
在 任何 簇 的 数据 流 聚 入 Y 簇 中 。 
(c) 重复 执行 步骤 (b) ， 直 至 没有 新 网 络 流 聚 入 复 Y。 
(d) 根据 识别 的 结果 ， 重 复 执 行 步骤 (a) ~(c) ， 直 到 
所 有 的 网 络 流 都 被 处 理 。 
9 合并 相似 艇 。 
将 了 相似 性 定义 为 :两 个 簇 中 出 现 相同 的 IP 的 个 数 和 两 
个 簇 中 下 的 总 数 的 比值 。 
如 果 当 人 P 相似 性 难以 满足 预先 设 定 的 阔 值 时 ， 则 结束 合 


理想 的 聚 类 结果 为 ， 相 同 应 用 产生 的 数据 流 应 被 聚 到 同一 
个 簇 中 ， 而 且 一 个 艇 中 只 包含 一 种 应 用 流量 。 但 是 在 实际 聚 类 
结果 中 发 现 , 相同 应 用 也 会 产生 了 多 个 艇 。 通 过 分 析 发 现 , P2P 
协议 具有 多 种 交互 模式 ,在 查询 过 程 中 一 般 使 用 UDP 协议 进行 
通信 , 在 文件 传输 过 程 中 使 用 TCP 协议 进行 通信 ， 这 两 种 通信 
模式 在 包 级 和 流 级 统计 特征 上 有 很 大 差别 。 由 于 相同 应 用 产生 
的 不 同 复 对 应 的 TDG 会 有 大 量 的 共同 节点 ， 本 文 将 人 P 相似 性 
作为 簇 的 合并 条 件 。 

d) 利 用 合并 结束 后 的 每 组 流 创建 TDG， 并 利用 其 度量 指标 
进行 分 类 。TDG 的 度量 指标 为 : 利用 本 文 构建 的 TDG 图 的 行 
为 特征 ， 同 时 具有 入 度 和 出 度 的 节点 占 所 有 节点 数 的 百分比 ， 
网 络 直径 大 小 限制 以 及 节点 平均 度 作 为 TDG 分 类 指标 。 

将 上 述 过 程 中 得 到 的 不 同 簇 创建 为 TDG 并 计算 它们 的 度 
量 值 。 如 果 度 量 值 满足 设 定 的 阔 值 ， 则 判断 该 TDG 符合 P2P 
模式 ， 并 将 其 中 的 每 个 流 都 标记 为 P2P 应 用 。 


开始 


提取 网 络 流 一 
统计 特征 | 


创建 TDG 


y 

使 用 端口 广 
法 过 滤 非 

| 了 


非 P2P 类 


和 
DBSCAN 


聚 类 分 流 


图 2 CTDG 方法 流程 


6 ”实验 结果 和 分 析 


6.1 数据 集 
本 文 应 用 2017 年 不 同时 间 采 集 于 中 国 某 骨 干 网 络 的 流量 


作为 实验 数据 集 。 表 2 进行 了 详细 的 实验 数据 描述 。 本 方法 中 


hinaXiv 合 作 期 书 
苏 阳 阳 ， 等 ; 基于 到 类 和 流量 您 人 仿 全 


使 用 CoralReef 来 处 理 网 络 流量 。CoralReef 是 一 种 用 于 被 动 分 
析 互 联网 流量 的 软件 套件 。 将 其 设 定 64 s 为 流 超时 值 ， 并 使 用 
基于 载荷 特征 匹配 的 方法 来 标注 数据 集 。 


表 2 流量 数据 集 信息 
数据 集 Backbonel Backbone2 
流量 持续 时 间 5 min 30 min 
数据 包 数 16 000 000 126 000 000 
数据 包 字 节 数 10 GB 80 GB 
流 数 2 000 000 19 000 000 
经 过 手工 标注 和 分 析 ， 实 验 数 据 集 主要 包括 DNS、Web、 


P2P、Streaming、Games、Network-operation、MAIL/NEWS 等 
网 络 应 用 协议 类 型 ， 还 有 部 分 载荷 分 析 方 法 难以 识别 的 应 用 。 
在 实验 过 程 中 ， 本 文 删除 了 难以 识别 的 流 以 及 没有 载荷 的 流 。 
图 3 描述 了 两 份 网 络 流量 数据 集中 应 用 类 型 的 分 布 情况 。 


”Es 
| | 
sx 一 莉 晤 “ 轩 时 
Bee 
ES 
60% 
40% 
20% 
0% 
backbone1 backbone2 
四 Web 男 Dns 
Games 图 Network-operation 
PpP2P 男 MAIL/NEWS 
目 Unknown 国 streaming 
other 


图 3 ”实验 数据 中 应 用 协议 类 型 分 布 

6.2 评价 方法 
为 了 准确 地 评价 本 文 提出 的 方法 ， 采 用 准确 率 (precision ) 

/召回 率 (recall) 和 综合 评价 指标 Fl-measure) 评价 结果 。 各 

指标 定义 如 下 : 

准确 率 (precision) 为 


I (1) 
一 


召回 率 (recall) 为 


全 (2) 
综合 评价 指标 (Fl-measure) 为 
FR 
ZE (3) 
LA 


其 中 : TP (true positives) 代表 被 正确 分 类 为 P2P 的 样本 数目 ; 
FP (false positives ) 代表 将 非 P2P 样本 被 错误 识别 为 P2P 的 数 
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的 数目 。 


6.3 实验 结果 及 分 析 


果 。 根 据 基准 方法 
记 最 多 的 应 用 类 型 
该 应 用 类 型 。 
参数 来 对 艇 的 最 终 数目 和 要 


遇 来 标记 这 个 艇 ， 
DBSCAN 算法 经 过 


即 艇 中 


日 ; FN (false negatives ) 则 代表 将 P2P 样本 错误 识别 为 非 P2P 


首先 测试 DBSCAN 算法 将 属于 相同 应 用 的 流 聚 成 艇 的 效 
对 样本 流 的 标记 类 型 ， 选 择 每 个 簇 中 含有 标 


FPF 的 所 有 流 都 被 标记 为 


调节 参数 eps 和 minPTS 两 个 
聚 类 结果 进行 调整 。 其 中 ，minPTS 


越 小 会 产生 越 多 数量 的 艇 。 确 定 最 小 minPTS 后 ， 随 着 eps 的 
增 大 ， 分 类 性 能 也 会 不 断 提升 。 但 是 当 eps 过 大 时 ， 分 类 性 能 
又 会 明显 减弱 。 由 图 4 所 示 , eps 在 0.02~0.04，minPTS=4 时 算 
法 效果 最 好 ， 聚 类 得 到 的 簇 标 记 的 准确 率 达 到 90% 以 上 。 

! ee 

-二 一 minPts=8 

1 上 tt 一 乔 一 minPts=12 

人 A —B —minpts=24 


区 | 


4 不 同 


eps 


eps 和 minPTS 参数 下 的 聚 类 结果 


0 i 1 1 i i i h ff 
001 0015 002 0025 003 0035 004 0045 005 0.055 


CTDG 方法 中 , 步骤 co) 是 合 
的 效果 取决 于 节点 相似 度 阔 
= 起 ; 导 


得 多 个 簇 很 难 合并 到 


设 定 过 小 ， 使 得 不 同 应 
准确 率 。 


— 


] 的 簇 被 错 


致 相 


可 能 运行 同 种 应 | 
值 的 设 定 。 
同 应 用 的 网 络 流 分 布 在 不 同 
Ph， 不 利于 全 面 地 分 析 相 同类 型 网 络 流 的 行为 模式 ; 


误 地 合并 ， 降 低 算 法 的 整体 


闵 值 设 定 过 


的 多 个 簇 ， 


寸 大， 使 


浆 值 


-- ept=0.025 minPTS=4 
-@- ept=0.030 minPTS=4 


0 01 02 


名 | 


| 


可 以 发 


和 准确 率 。 


和 十 
5 相似 性 阔 值 的 选取 对 识别 结 
5 所 示 ， 如 果 把 节点 相似 度 阔 值 设置 在 0.4~0.7 时 ， 
岗 CTDG 分 类 方法 的 准确 率 可 以 超过 
果 较 好 。 在 聚 类 参数 minPTS=4、 
设 为 0.6 时 ，CTDG 方法 能 够 达到 93% 的 召 
率 ; 在 ept=0.03 时 ，CTDG 方法 也 能 够 达到 90% 以 上 的 召回 
但 是 在 实验 过 程 中 也 发 现 ， 参 数 选择 不 当 会 导致 


CTDG 方法 的 分 类 性 能 会 大 幅 


度 下 降 。 


相对 于 本 文 提出 的 CTDG 方法 , BLINC 方法 根据 


吉 果 的 影响 


ept=0.025、 节 点 相似 度 阔 
率 和 96% 的 准确 


I 


90%, 表示 分 类 效 


值 


率 


E 机 在 传 


苏 阳 阳 ， 


输 
有 流 。 本 文中 使 用 


等 ,基于 聚 类 和 流量 


hin 


iv 合 作 


传播 医 


作 期 刊 


i 量 识别 方法 


J P2P Y 


BLINC 方法 对 现 


能 达到 84% 的 准确 率 和 89% 的 召回 率 。 
BitTorrent 等 部 分 P2P 应 用 的 识别 率 上 


而 CTDG 方法 的 检测 率 却 能 


方法 引入 了 聚 类 过 程 ， 


较 低 ， 只 能 达到 
名 达到 90%, 如 表 3 所 示 。! 
并 利用 了 更 多 的 统计 特征 作为 聚 类 的 量 
度 ， 使 得 建立 TDG 的 效果 更 好 ， 有 效 地 提升 了 最 终 方 法 的 站 


层 的 连接 模式 (如 端口 和 了 IP 的 关系 等 ) 来 标记 每 个 主机 的 所 
数据 集 作 分 类 ，BLINC 


此 外 ，BLINC 对 于 
25%, 
于 CTDB 


汇 地 


别 性 能 。 相 比 陈 阳 提 出 的 利用 SVM_PF 进行 P2P 流量 识别 , 该 
方法 根据 双向 流 的 早期 多 个 数据 包 作 为 特征 选择 依据 ， 虽 然 可 
以 降低 特征 提取 的 复杂 度 ， 但 由 于 缺少 关联 性 更 强 的 特征 ， 召 
回 率 普遍 在 85% 以 下 ， 如 图 6、7 所 示 。 
表 3 CTDGSVM_PF,BLINC 方法 的 性 能 对 比 /% 
方法 准确 率 召回 率 Fl-measure 
BLINC 84.5 89.7 87.0 
SVM_PF 93.2 83.1 88.3 
CTDG 96.8 93.6 95.1 
ee AR eS WO oo 
应 用 协议 类 型 
图 6 准确 率 比较 
™ eo—e C06 3 
取 
we -2 Ca gs WP oP 
ww 应 用 协议 类 型 
图 7 召回 率 比较 
7 ”结束 语 
本 文 针 对 P2P 流量 的 网 络 行为 特性 ， 应 用 基于 网 络 流 的 包 
级 和 流 级 统计 特征 的 聚 类 方法 ， 并 结合 TDG 图 特征 ， 提 出 了 
将 网 络 流 和 主机 行为 特征 与 TDG 相 结合 的 CTDG 方 法 用 于 P2P 
流量 识别 ， 对 P2P 流量 的 识别 更 为 精准 有 效 。 通 过 实验 表明 ， 
该 方法 较 BLINC 和 SVM_PF 方法 在 准确 率 、 召 回 率 和 
Fl-measure 方面 均 有 不 错 的 提升 ， 同 时 本 文 的 贡献 在 于 为 解决 


出 版 


~ 


传统 P2P 流量 识别 的 问题 提供 了 新 的 研究 思路 。 
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